论文笔记 《Fully Convolutional Networks for Semantic Segmentation》

解决semantic segmentation的一种方向,可以end-to-end 训练的模型。15年的CVPR,达到state-of-the-art。之后基于这种思路又有人有了更加优化的,下一篇论文笔记讲。

这片论文中阐释的方法,大体思路是:

这里以AlexNet为例,我们知道AlexNet的结构是先五个conv layer,然后三个fc layer。最后一个输出为1*1000的vector,vector中最大的值即为所预测的结果。然而现在我们需要的不是一个单一的结果,我们需要对图像中每一个pixel都要一个对应的label,即,我们需要一个dense output。

最简单容易想到的方法自然是对原始图片做sliding window,然后对每一个window做一次forward进行预测。但是这样的计算是非常缓慢的,如果要达到目标,对全图每个pixel产生一个结果,那所需要的计算时间是 num_pixel 倍。

这篇论文采取的方法是:1. 先通过改写一个CNN,使其变成一个全卷积网络(FCN),使得可以接受任意大小的输入,产生相应大小(downsampled,of course)的dense output。2. 然后将这个dense output过一个upsample层,使其放大到与输入一样的大小。 3. 通过skip connection的方法,使的最终输出更加的fine grain

1. 如何产生dense output

根据之前说的,为了得到初步的一个dense output, 我们需要将CNN改成一个FCN(如下图)。具体方法在Caffe的官方样例 net surgery 中有详细阐释,这里说一下大概思路

figure1

上图显示的是每一层的输出,上半张是CNN,下半张是改写过的FCN。很容易看出,经过改写之后的FCN,当输入是一个更大的图的时候,输出也会由原来的vector变成了一个volume,而volume的一个 横切面 即为他在这一类上的的heatmap。

在net surgery例子中,原始的AlexNet的输入大小是3*227*227,输出是1*1000;改写之后的FCN输入样例大小是3*451*451,输出是8*8*1000.

很有意思的是,在改写过程中,整个网络的weights都是不变的。稍微回顾一下知识我们就知道,fc layer其实只是相当于receptive field等于前一层输出的weight*height,因此输出会变成一个vector而不是volume。当我们改变fc layer到conv layer之后,保持原有的weights不动。这时如果输入还是一个3*227*227大小的图片的话,我们得到的东西与之前是完全一样的;但是它实际的计算形式发生变化了,如果输入变成更大的图,那么在新改写的conv layer就会像正常的conv layer一样,输出volume了。

总结一下也就是说,这个改写过程完全没有动之前的网络权重,改变的只是计算形式。

2. learnable upsampling: ‘Deconvolution’

根据上面一节,目前的输出是一个缩小版的结果。为了得到pixel-wise的segmentation结果,我们还需要把这个缩小版的结果放大。convolution是一个downsample的过程,反向的convolution其实就是一个upsample的过程了,而且这个过程(的权重)也是可习得的。

3. skip connection

skip connection 的作用是使得最终的结果更加的fine grain。architecture和结果如下面两张图。原理就是不单单考虑最后一层的结果,而是叠加了前两层的结果。因为最后一层的信息往往已经很全局化了,不够细密。

figure2
figure3

4. Case Study: FCN-VGG16

在第一节中间已经简单地提到了FCN-AlexNet的细节,这里描述一下最后performance最好的FCN-VGG16模型.

首先先回顾一下原始的VGG16模型:

  1. 输入为 224x224x3
  2. 一共13个conv层,3个fc层
  3. conv层都是:3x3 kernel,stride 1,pad 1; pool层(一共5层)都是 2x2 max,stride2

这种结构产生的特性是:conv层不会导致spatial size变小,只有pool层会 downsample by factor 2; 所以到最后的fc层是被pool了5次,变为7x7;

那么改写之后的网络结构长什么样呢?我们来分析实现源码 voc-fcns32s:
可见网络结构基本保持不变,除了:

  1. 输入为 500x500x3
  2. 在第一个conv层加了100的大padding

到这里,我们能计算出到经过了这样13层conv之后,输出为22x22x512;再经过改写的fully-conv之后,输出为16x16x21; 最后的输出是544, 然后又通过caffe的crop_layer把这个544映射到500的大小(这个layer的具体细节没太看明白,是怎么实现的呢?)

我们可以看到这个modification是比较简单粗暴的。。硬加了一个100的padding。这个问题在下一篇即将讲的paper中会有比较好的改进处理。